This paper focuses on the uncertainty estimation of white matter lesions (WML) segmentation in magnetic resonance imaging (MRI). On one side, voxel-scale segmentation errors cause the erroneous delineation of the lesions; on the other side, lesion-scale detection errors lead to wrong lesion counts. Both of these factors are clinically relevant for the assessment of multiple sclerosis patients. This work aims to compare the ability of different voxel- and lesion- scale uncertainty measures to capture errors related to segmentation and lesion detection respectively. Our main contributions are (i) proposing new measures of lesion-scale uncertainty that do not utilise voxel-scale uncertainties; (ii) extending an error retention curves analysis framework for evaluation of lesion-scale uncertainty measures. Our results obtained on the multi-center testing set of 58 patients demonstrate that the proposed lesion-scale measures achieves the best performance among the analysed measures. All code implementations are provided at https://github.com/NataliiaMolch/MS_WML_uncs
translated by 谷歌翻译
自动化问题生成是实现英语理解评估个性化的重要方法。最近,基于变压器的预审前的语言模型已经证明了从上下文段落中提出适当问题的能力。通常,使用基于N-Gram的指标或手动定性评估对手动生成的问题的参考组进行评估。在这里,我们专注于完全自动化的多项选择问题生成(MCQG)系统,其中必须从上下文段落中生成问题和可能的答案。应用基于N-Gram的方法对于这种形式的系统来说是一项挑战,因为参考集不太可能捕获所有可能的问题和答案选项。相反,手动评估的尺度较差,对于MCQG系统开发而言是昂贵的。在这项工作中,我们提出了一套绩效标准,以评估产生的多项选择问题的不同方面。这些品质包括:语法正确性,答复性,多样性和复杂性。描述了这些指标中每个指标的初始系统,并对标准的多项选择阅读理解科目进行了单独评估。
translated by 谷歌翻译
分配转移或培训数据和部署数据之间的不匹配是在高风险工业应用中使用机器学习的重要障碍,例如自动驾驶和医学。这需要能够评估ML模型的推广以及其不确定性估计的质量。标准ML基线数据集不允许评估这些属性,因为培训,验证和测试数据通常相同分布。最近,已经出现了一系列专用基准测试,其中包括分布匹配和转移的数据。在这些基准测试中,数据集在任务的多样性以及其功能的数据模式方面脱颖而出。虽然大多数基准测试由2D图像分类任务主导,但Shifts包含表格天气预测,机器翻译和车辆运动预测任务。这使得可以评估模型的鲁棒性属性,并可以得出多种工业规模的任务以及通用或直接适用的特定任务结论。在本文中,我们扩展了偏移数据集,其中两个数据集来自具有高社会重要性的工业高风险应用程序。具体而言,我们考虑了3D磁共振脑图像中白质多发性硬化病变的分割任务以及海洋货物容器中功耗的估计。两项任务均具有无处不在的分配变化和由于错误成本而构成严格的安全要求。这些新数据集将使研究人员能够进一步探索新情况下的强大概括和不确定性估计。在这项工作中,我们提供了两个任务的数据集和基线结果的描述。
translated by 谷歌翻译
Building an AI agent that can design on its own has been a goal since the 1980s. Recently, deep learning has shown the ability to learn from large-scale data, enabling significant advances in data-driven design. However, learning over prior data limits us only to solve problems that have been solved before and biases data-driven learning towards existing solutions. The ultimate goal for a design agent is the ability to learn generalizable design behavior in a problem space without having seen it before. We introduce a self-learning agent framework in this work that achieves this goal. This framework integrates a deep policy network with a novel tree search algorithm, where the tree search explores the problem space, and the deep policy network leverages self-generated experience to guide the search further. This framework first demonstrates an ability to discover high-performing generative strategies without any prior data, and second, it illustrates a zero-shot generalization of generative strategies across various unseen boundary conditions. This work evaluates the effectiveness and versatility of the framework by solving multiple versions of two engineering design problems without retraining. Overall, this paper presents a methodology to self-learn high-performing and generalizable problem-solving behavior in an arbitrary problem space, circumventing the needs for expert data, existing solutions, and problem-specific learning.
translated by 谷歌翻译
为不同数据集创建视力管道来解决计算机视觉任务是一个复杂且耗时的过程。目前,这些管道是在域专家的帮助下开发的。此外,除了依靠经验,反复试验或使用基于模板的方法外,没有系统的结构来构建视觉管道。由于选择合适的算法来实现特定视觉任务的搜索空间是大型的人类探索,以找到良好的解决方案需要时间和精力。为了解决以下问题,我们提出了一种动态和数据驱动的方式,以确定一组适当的算法,该算法适合构建视觉管道以实现目标任务。我们介绍了一种辅助的变压器体系结构,并采用了深厚的强化学习,以推荐可以在视觉工作流的不同阶段合并的算法。该系统既强大又适应环境的动态变化。实验结果进一步表明,我们的方法还很好地推荐了训练时未使用的算法,因此减轻了在测试期间引入的新算法上对系统进行重新训练的需求。
translated by 谷歌翻译
语法误差校正(GEC)系统执行序列到序列任务,其中GEC系统校正了包含语法错误的输入单词序列,以输出语法正确的单词序列。随着深度学习方法的出现,自动化的GEC系统变得越来越流行。例如,GEC系统通常用于英语学习者的语音转录作为评估和反馈形式 - 这些强大的GEC系统可用于自动测量候选人流利度的一个方面。 \ textit {edits}的计数从候选人的输入句子(或论文)到GEC系统的语法校正输出句子,这表明候选人的语言能力,其中更少的编辑表明更好的流利度。因此,编辑计数可以被视为\ textit {fluency评分},零表示完美的流利度。但是,尽管基于深度学习的GEC系统非常强大和准确,但它们容易受到对抗性攻击:对手可以在系统的输入下引入一个小的,特定的更改,该系统在输出时会导致大型,不需要的变化。在考虑将GEC系统应用于自动化语言评估时,对手的目的可能是通过对语法上不正确的输入句子进行小改动来作弊,该句子隐藏了GEC系统中的错误被不公正地获得了完美的流利程度。这项工作研究了一种简单的普遍替代攻击攻击,非母语的英语说话者实际上可以采用欺骗用于评估的GEC系统。
translated by 谷歌翻译
自动零售商店管理系统需要库存跟踪,商店监控和异常校正。最近对自动零售商店管理的尝试主要面临着对异常检测的看法,以及在执行异常校正方面的移动操作中引起的新挑战。对于该域中的可扩展解决方案是必要的。
translated by 谷歌翻译
基于深度学习的系统容易受到对抗性攻击的影响,在该系统中,输入的小小的,不可察觉的变化改变了模型的预测。但是,迄今为止,大多数检测这些攻击的方法都是为图像处理系统设计的。许多流行的图像对抗检测方法能够从嵌入特征空间中识别对抗性示例,而在NLP域中,现有最先进的检测方法仅关注输入文本特征,而无需考虑模型嵌入空间。这项工作研究了将这些图像移植到自然语言处理(NLP)任务时,将产生什么差异 - 发现这些检测器的端口不能很好地端口。这是可以预期的,因为NLP系统具有非常不同的输入形式:本质上的离散和顺序,而不是图像的连续和固定尺寸输入。作为等效的以模型为重点的NLP检测方法,这项工作提出了一个简单的基于“残基”检测器的句子,以识别对抗性示例。在许多任务上,它超过表现的移植图像域检测器和最新的NLP特定探测器的状态。
translated by 谷歌翻译
鉴于$ n $ i.i.d.从未知的分发$ P $绘制的样本,何时可以生成更大的$ n + m $ samples,这些标题不能与$ n + m $ i.i.d区别区别。从$ p $绘制的样品?(AXELROD等人2019)将该问题正式化为样本放大问题,并为离散分布和高斯位置模型提供了最佳放大程序。然而,这些程序和相关的下限定制到特定分布类,对样本扩增的一般统计理解仍然很大程度上。在这项工作中,我们通过推出通常适用的放大程序,下限技术和与现有统计概念的联系来放置对公司统计基础的样本放大问题。我们的技术适用于一大类分布,包括指数家庭,并在样本放大和分配学习之间建立严格的联系。
translated by 谷歌翻译
我们提供了新的基于梯度的方法,以便有效解决广泛的病态化优化问题。我们考虑最小化函数$ f:\ mathbb {r} ^ d \ lightarrow \ mathbb {r} $的问题,它是隐含的可分解的,作为$ m $未知的非交互方式的总和,强烈的凸起功能并提供方法这解决了这个问题,这些问题是缩放(最快的对数因子)作为组件的条件数量的平方根的乘积。这种复杂性绑定(我们证明几乎是最佳的)可以几乎指出的是加速梯度方法的几乎是指数的,这将作为$ F $的条件数量的平方根。此外,我们提供了求解该多尺度优化问题的随机异标变体的有效方法。而不是学习$ F $的分解(这将是过度昂贵的),而是我们的方法应用一个清洁递归“大步小步”交错标准方法。由此产生的算法使用$ \ tilde {\ mathcal {o}}(d m)$空间,在数字上稳定,并打开门以更细粒度的了解凸优化超出条件号的复杂性。
translated by 谷歌翻译